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摘要 : [目的 /意义 ] 探索 热点 事件 评论 网 络 中 话题 社 群 及 网 民 的 情感 波动 ,掌握 与 情事 件 发 展 过 程 ,对 于 
整体 把 握 热 点 事件 的 发 展 方向 ,做 好 新 时 期 网 络 与 论 的 引导 工作 具有 重大 意义 。[ 方法 过程] 以 复杂 网 络 理论 
为 基础 ,基于 评论 词语 间 的 共 现 关系 构建 基于 事件 发 展 的 子 事件 网 络 ,通过 社 群 发 现 算法 来 识别 子 事件 评论 
网 络 中 的 话题 社 群 ,将 情感 词 依 据 情感 词典 赋予 情感 分 类 属性 ,基于 事件 的 演化 过 程 动 态 地 跟踪 网 民意 见 
以 及 情感 波动 。[ 结果 /结论 ] 研究 结果 表明 ,评论 网 络 群落 发 现 以 及 变异 系数 方法 可 以 有 效 地 衡量 网 民 话 
题 讨论 的 规模 与 集中 程度 ;评论 网 络 中 赋予 情感 词 节 点 情感 分 类 属性 方法 可 以 体现 事件 演化 过 程 中 网 民 的 
情感 变化 ;舆论 衍生 话题 对 事件 的 舆情 发 展 有 持续 性 影响 ;网 民 话 题 讨论 内 容 对 于 事件 演化 具有 一 定 程度 
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话题 发 现 


情感 分 析 


随 着 互联 网 等 各 种 新 媒体 手段 的 飞速 发 展 和 手 
机 sz 移动 设备 的 广泛 应 用 以 及 社会 化 媒体 为 特征 的 媒 
介 侍 时 代 的 到 来 ,网 络 日 益 成 为 反映 社会 熏 情 的 主要 
载体 和 窗口 。 网 络 与 情 ” 是 指 由 个 人 以 及 各 种 社会 
群体 构成 的 公众 ,在 一 定 的 历史 阶段 和 社会 空间 内 ， 
就 自己 关心 或 与 自身 利益 紧密 相关 的 各 种 公共 事务 
通过 互联 网 表达 和 传播 的 各 种 不 同情 绪 、 态 度 和 意 
见 交 错 的 总 和 。 网 民 通 过 微 博 针对 茶 一 事件 发 表 自 
己 的 观点 和 见解 过 程 中 会 产生 大 量具 有 情感 的 文本 
信息 ,通过 观点 性 信息 进行 话题 发 现 与 情感 分 析 研 
究 ,可 以 了 解 网 民 的 情感 走势 以 及 对 于 事件 的 整体 
看 法 和 意见 。 网 络 与 情事 件 具有 传播 速度 快 、 隐 蔽 
性 强 不 易 控制 等 特点 ,因此 动态 跟踪 网 民 对 与 情事 
件 话题 讨论 内 容 以 及 情感 的 变化 ,将 其 作为 重要 的 
民意 收集 平台 ,对 于 整体 把 握 热点 事件 的 发 展 方向 ， 
充分 利用 网 络 媒体 的 特点 做 好 新 时 期 网 络 与 论 的 引 
导 工 作 具 有 重大 意义 。 


2 研究 现状 


2.1 ” 微 博 话题 发 现 

关于 微 博 主 题 挖 所 问题 的 相关 研究 主要 集中 于 计 
算 机 领域 ,以 改进 经 典 聚 类 算法 提高 话题 发 现 有 效 等 
PHE. Y. Chen 等 中 学 者 开发 了 一 个 增 量 聚 类 框 
架 来 检测 新 的 主题 ,并 采用 一 系列 内 容 和 时 间 特 征 来 
及 时 发 现 热门 主题 ;G. Stilo 等 中 基于 相关 时 间 序 列 的 
相似 性 提出 了 一 种 用 于 在 微 博 中 对 词语 进行 聚 类 的 新 
方法 ;M. Hu 等 所 从 用 户 评价 中 挖掘 用 户 的 观点 ; 李 亚 
星 等 ”采用 改进 Single -Pass 算法 ,提出 基于 实时 共 现 
网 络 的 话题 发 现 模型 ; 宋 莉 娜 等 ”提出 了 SOM 聚 类 的 
微 博 话题 发 现 方法 ,以 改善 传统 文本 聚 类 的 不 足 , 进 而 
有 效 发 现 话题 。 此 外 ,图 书 情报 学 领域 也 对 此 类 问题 
积极 展开 研究 , 唐 小 波 ”“ 等 基于 先 验 概率 的 潜在 语 
义 分 析 模 型 LDA 对 微 博 主题 进行 挖掘 ,提出 用 依存 句 
失 分 析 来 改进 传统 文本 相似 矩阵 ,以 提高 聚 类 准确 性 。 
王 正成 等 ”利用 LDA 主题 模型 挖掘 出 特定 话题 中 的 
各 个 主题 ,体现 特定 话题 的 舆情 走向 并 针对 主题 挖掘 
意见 领袖 。 肖 璐 等 '" 基于 句子 成 分 的 相似 度 计算 方 
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法 来 计算 文本 之 间 的 相似 度 ,构建 文本 相似 矩阵 ,进行 
聚 类 分 析 , 找 到 微 博 热点 主题 。 
2.2 微 博 情感 分 析 

情感 分 析 也 被 称 为 意见 挖掘 ,是 对 带 有 情感 色彩 
的 主观 性 文本 进行 分 析 \ 处 理 .归纳 和 推理 的 过 程 5 。 
情感 分 析 主 要 有 机 器 学 习 的 方法 和 基于 情感 词典 的 方 
法 两 大 类 。 分 析 大 量 用 户 发 布 的 微 博 在 很 多 领域 都 非 
常 关键 , 挖 气 用 户 情感 具有 广泛 的 应 用 价值 ,吸引 了 国 
内 外 许多 研究 人 员 的 关注 。 国 外 学 者 对 于 网 民情 感 变 
化 的 研究 主要 集中 在 Twitter 平台 上 ,B， Pang 777 
利用 人 工 标注 训练 语 料 EDU rM KREN E 
析 电 影评 论 倾 向 性 。J Bollen 等 5 对 发 布 在 微 博 平 
台 上 的 推 文 进行 情绪 分 析 , 计 算 每 天 时 间 轴 上 六 维 情 
缮 向 量 ,进而 推测 大 规模 的 情绪 分 析 。X.Zou 等 "5 提 
册子 一 种 结合 社会 情景 和 话题 情景 来 分 析 微 博 情绪 的 
新 男 法 ,引入 话题 上 下 文 来 模拟 微 博之 间 的 语义 关系 。 
Zhang 等 “提出 了 一 种 新 的 实体 层面 的 情绪 Twit- 
teE 的 分 析 方法 。 由 于 中 文 微 博 与 英文 微 博 在 产品 设 
讨 上 存在 不 同 ,中 文 和 英文 在 语言 表达 习惯 上 也 有 很 
jE 异 ,因此 与 英文 微 博 的 情感 分 析 相 比 ,中 文 微 博 的 
情感 分 析 研究 工作 还 不 是 很 成 熟 。 一 部 分 学 者 提出 关 
书 鞍 定 研究 问题 的 情感 分 类 方法 , 唐 晓 波 等 ”提出 一 
种 菜 于 特征 本 体 的 产品 评论 情感 分 析 法 ,该 方法 利用 


论 中 词语 作为 网 络 节 点 ,根据 情感 词典 赋予 情感 词 节 
点 与 之 相对 应 的 情感 分 类 属性 ,依据 词语 共 现 关 系 确 
定 网 络 中 的 边 ,进而 构建 评论 网 络 ,并 根据 Louvain 算 
法 “” ,划分 评论 网 络 群 落 , 动 态 跟踪 热点 事件 网 民 话 
题 意 见 和 情感 波动 变化 情况 ,进而 显示 出 与 情事 件 完 
整 的 演进 状况 。 


3 ”基础 理论 与 研究 框架 


3.1 基础 理论 

3.1.1 网 络 社 群 划分 复杂 网 络 是 研究 解决 复杂 系 
统 问题 的 一 种 重要 方法 。 复 杂 网 络 的 理论 及 实证 研究 
对 于 生物 学 传染 病 的 传播 研究 蛋白质 表达 网 络 的 研 
究 .社会 学 市 场 扩 展 网 络 研 究 、 物 理学 中 广泛 现象 研 
究 、 计 算 机 科学 中 病毒 的 传播 和 控制 及 防御 产生 了 重 
大 的 有 影响” 。 在 本 研究 中 ,将 网 民 评论 词语 作为 节 
点 ,词语 间 的 关联 关系 作为 边 ,构建 基于 热点 事件 下 的 
子 事件 演化 网 络 。 

网 民 话 题 讨 论 内 容 随 着 事件 的 发 酵 不 断 发 展演 
进 ,使 得 评论 词语 基于 彼此 之 间 的 关联 关系 逐渐 形成 
代表 网 民意 见 的 内 容 , 因 此 ,对 于 评论 网 络 而 言 ,发 现 
评论 网 络 中 的 不 同意 见 群 落 以 及 其 中 的 情感 标签 将 有 
助 于 揭示 网 民意 见 与 情感 的 演变 。 将 网 络 划 分 为 群落 
的 依据 大 体 上 分 为 图 划分 和 社 群 发 现 两 类 算法 。 其 中 
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构建 特征 本 体 对 特征 词 进行 分 类 ,通过 计算 情感 词 与 
犊 多 的 搭配 权重 来 识别 隐 式 特征 ,构建 领域 情感 词典 
和 激 博 表情 符号 词典 。 杨 亮 等 "提出 情感 分 布 语言 
模 歼 , 通 过 分 析 相 邻 时 间 段 情感 分 布 语言 模型 间 的 差 
异 6 实 现 对 热点 事件 的 发 现 。 黄 卫 东 等 提出 一 种 基 
于 概率 潜在 语义 分 析 (PLSA) 的 网 络 与 情话 题 情感 分 
析 方 法 ,利用 PLSA 模型 对 不 同时 段 上 的 网 络 与 情话 
题 进行 子 话题 提取 和 情感 词 表 构 建 。 也 有 学 者 使 用 复 
杂 网 络 理论 进行 情感 分 类 研究 , 张 向 阳 等 "根据 消费 
者 在 线 评论 ,构建 有 向 网 络 ,从 评论 网 络 的 拓扑 性 质 出 
发 建立 在 线 评论 情感 倾向 分 类 模型 。 杨 锋 等 ”基于 
随机 网 络 以 及 情感 词 表 提 出 了 一 种 基于 评论 序列 最 短 
覆盖 路 径 的 情绪 倾向 性 分 类 方法 。 

综 上 所 述 , 学 者 们 基于 不 同情 感 分 类 方法 构建 情 
感 词 表 、 利 用 情感 词 表 预 测 用 户 特定 行为 或 进行 博文 
内 容 分 析 以 及 对 优化 各 类 聚 类 算法 以 提高 话题 发 现 广 
面 的 研究 较 多 ,将 复杂 网 络 思想 引入 网 民情 感 波 动 与 
话题 意见 挖掘 的 研究 较 少 。 有 鉴于 此 ,本 研究 选取 六 
浪 微 博 热 门 话题 “中 美 间 贸易 摩擦 " 子 事件 中 热门 博 
文 下 更 能 体现 网 友 态度 的 评论 数据 作为 数据 源 ,将 评 


图 划分 的 主要 特点 是 指定 了 群落 规模 和 数量 ,目的 在 
于 把 网 络 划 分 成 更 小 、 更 容易 管理 的 碎片 从 而 进行 研 
究 ; 而 社 群 发 现 主 要 是 依据 网 络 本 身 的 拓扑 结构 来 决 
定 群 落 的 数量 和 规模 , 即 自然 地 识别 网 络 内 部 不 同 群 
落 。 


本 研究 目的 在 于 探索 基于 事件 演化 下 网 民意 见 和 
情感 的 演变 过 程 ,事先 并 不 确定 网 民意 见 群落 的 具体 
情况 ,因此 ,本 研究 采用 社 群 发 现 的 Louvain ^ 算法 对 
评论 网 络 中 的 意见 群落 进行 划分 与 识别 。M.，L.，Wal- 
lace 等 ”也 曾 指出 社 群 发 现 算法 有 助 于 规模 较 大 的 复 
杂 网 络 的 分 析 研 究 ,并 在 主题 的 识别 上 具有 明显 的 天 

Louvain 算法 是 基于 模块 度 的 社 群发 现 算法 ,该 算 
法 不 需 事先 确定 群落 信息 ,并 且 在 研究 大 型 网 络 上 具 
有 较 好 的 效率 和 效果 表现 。 该 算法 通过 不 断 将 节点 进 
行 凝 聚 ,实现 将 整个 网 络 分 解 为 多 个 群落 。Louvain 算 
法 的 主要 步骤 如 下 : 

(1) 将 网 络 中 每 个 节点 看 成 是 一 个 独立 的 群落 ， 
即 群 落 数目 与 节点 个 数 相同 ; 

(2) 对 每 个 节点 i, 依 次 尝试 把 节点 i 分 配 到 每 个 
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邻居 节点 所 在 的 群落 中 ,计算 分 配 前 后 的 模块 度 变 化 
AQ ,并 记录 AQ 值 最 大 的 邻居 节点 ,如 果 MaxAQ > 0， 
则 把 节点 i 分 配 到 该 邻居 节点 所 在 的 群落 ,否则 保持 
不 变 ; 

(3) 对 网 络 进行 压缩 ,将 所 有 同 在 一 个 群落 内 的 
节点 压缩 成 一 个 新 的 节点 ,重复 步骤 (1) 的 过 程 ,直至 
整个 网 络 的 模块 度 不 再 发 生变 化 , 即 达 到 最 大 值 。 

为 了 验证 网 络 中 群落 被 划分 得 是 否 合适 ,研究 中 
采用 2004 4E M. E. J. Newman 等 提出 的 模块 度 指 
标 来 对 群落 划分 质量 进行 衡量 ,用 Q 表示。 模块 度 的 
基本 思想 就 是 把 划分 出 群落 后 的 网 络 与 相应 的 零 模型 
进行 比较 ,以 度量 群落 划分 的 质量 。 而 所 谓 的 零 模型 
就 是 指 与 所 研究 的 网 络 具 有 某 些 相同 的 性 质 , 而 在 其 
人 目前 在 分 析 网 络 群 

结构 时 ， 通常 把 待 研究 的 网 络 和 与 其 具有 相同 度 序 
Se titm fen, 因此 ,常用 的 


E E 
ARRIERE, k 和 ;分别 是 网 络 中 节点 i 和 节点 j 的 
£15. C, 和 C, 分 别 表示 节点 i 与 节点 j 在 网 络 中 所 属 
的 姓 落 :如 果 两 个 节点 属于 同一 个 群落 ,8 取 值 为 1, 否 
则 区 0。 事 实 上 ,一 个 网 络 的 模块 度 就 是 该 网 络 的 群 
洲 坷 部 边 数 与 相应 的 零 模型 的 群落 内 部 边 数 之 差 占 整 
个 网络 边 数 M 的 比例 。 有 研究 发 现 , 当 Q 值 在 0.3 - 
0: 天 时 表明 网 络 中 出 现 了 较 强 的 群落 结构 ”1 。 

CY Er , Louvain 算法 通过 不 断 聚 集 各 评论 词语 
节点 来 实现 模块 度 值 最 优 的 结果 ,从 而 确定 评论 网 络 
中 群落 的 划分 。 基 于 上 述 理论 和 思想 ,本 研究 沿 事件 
发 展 脉络 来 识别 评论 网 络 中 的 意见 群落 ,动态 地 跟踪 
与 分 析 意 见 群 落 的 演化 过 程 。 

3.1.2 情感 词典 ”本 研究 选用 大 连理 工大 学 的 中 文 
情感 词汇 本 体 库 ™ ,其 分 类 体系 是 在 国外 比较 有 影响 
的 Ekman 的 6 大 类 情感 分 类 体系 的 基础 上 构建 的 ,最 
终 词汇 本 体 中 的 情感 共 分 为 7 大 类 。 情 感 词汇 本 体 中 
的 词性 种 类 一 共 分 为 7 类 ,每 个 词 在 每 一 类 情感 下 都 
对 应 了 一 个 极 性 ,其 中 ,0 代表 中 性 ,1 代表 春 义 ,2 代 
表 贬 义 ,3 代表 兼 有 蛮 贬 两 性 。 其 中 ,一 个 情感 词 可 能 
对 应 多 个 情感 ,情感 分 类 用 于 刻画 情感 词 的 主要 情感 
分 类 ,辅助 情感 为 该 情感 词 在 具有 主要 情感 分 类 的 同 
时 含有 的 其 他 情感 分 类 。 情 感 分 类 按照 论文 《情感 词 
汇 本 体 的 构造 )™ 所 述 ,情感 分 为 7 大 类 .21 小 类 。 情 


感 强度 分 为 1.3、5、7.9 五 档 ,9 表示 强度 最 大 ,1 为 强 
度 最 小 。 该 词典 共有 情感 词 27 466 个 ,其 中 讲义 词 
11 229 个 ,贬义 词 10 782 个 ,情感 词汇 本 体格 式 如 表 1 
所 示 : 

表 1 情感 词汇 本 体格 式 (部 分 ) 
OWE WEAR WOA WUS 情感 分 类 ”强度 。 USE 


Jor RH. 成 语 1 1 好 7 1 
手头 紧 成 语 1 1 恶 7 0 
周到 形容 词 1 1 好 5 1 
言 过 其 实 成 语 1 1 恶 5 2 


情感 词 是 否 全 面 对 情 感 分 析 具 有 重大 意义 ,本 文 
使 用 的 情感 词典 包含 基础 词典 和 基于 特定 事件 情境 下 
的 情感 词典 。 本 研究 将 大 连理 工大 学 情感 词典 作为 基 
础 词典 ,但 在 研究 特定 事件 情景 时 单单 使 用 基础 词典 
中 的 情感 词 往往 是 不 够 的 ,在 研究 热点 事件 用 户 意 见 
挖 据 问题 时 ,需要 有 关于 此 次 热点 事件 的 高 频 情 境 词 
汇 。 因 此 ,结合 人 工 筛选 ,参照 大 连理 工大 学 对 情感 词 
的 打分 情况 ,建立 针对 特定 事件 情境 下 的 领域 情感 词 
典 ”。 由 于 研究 的 需要 ,本 研究 对 一 些 词语 进行 了 特 
殊 处 理 , 例 如 中兴" 在 情感 词典 中 为 赛 义 词 , 带 有 情 
i oe cR s 
大 量 出 现 会 影响 研究 结果 ,因此 ,将 此 类 词语 从 情感 词 
典 中 删除 。 同 时 也 对 评论 内 容 中 的 否 td 
处 理 , 观 察 情 感 词 邻 居 是 否 有 和 否定 词 存在 , 若 情 感 词 周 
边 存 在 否定 词 , 则 将 否定 词 与 情感 词 合并 为 一 个 词语 ， 
如 "无 法 理解 “不 是 好 人 ”等 ,按照 这 种 规则 ,参照 情 
感 词 典 对 词语 进行 情感 极 性 和 分 类 的 倒置 ,将 此 类 词 
语 增添 在 领域 情感 词典 中 ,部 分 领域 情感 词典 如 表 2 
Bra: 


R2 领域 情感 词典 (部 分 ) 
词语 词性 强度 极 性 情感 分 类 词语 词性 强度 极 性 情感 分 类 
狗 名 词 7 2 恶 台独 ”名词 7 2 E 
mí 动词 5 2 眼 狼 成 语 7 2 X 
制裁 名 词 7 2 Z TIEN 成语 5 2 A 


3.2 ”研究 思路 框架 
网 络 鼻 情事 件 所 固有 的 传播 速度 快 .不 易 控制 等 
村 点 ,使 得 与 情事 件 的 引导 控制 工作 成 为 政府 .社会 各 
界 关注 的 重点 ,动态 地 跟踪 和 与 情事 件 演进 过 程 中 网 民 
的 话题 讨论 内 容 以 及 情感 变化 ,可 以 整体 把 握 热 点 事 

件 的 宏观 发 展 方向 。 
研究 中 ,首先 对 所 获取 事件 的 网 民 评论 进行 数据 
ERER .垃圾 评论 ,将 评论 数据 进行 分 词 处 
里, 进而 构建 评论 词 网 络 , 使 用 情感 词典 赋予 网 络 中 情 
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等 .基于 模块 度 的 话题 发 现 及 网 民情 感 波动 研究 


sans e CRDI MERFI 
以 新 浪 微 博 " 中 美 间 PINE 话题 为 人 


感 词 节点 相应 的 情感 分 类 ,采用 Louvain 算法 划分 网 民 


亿 。 因 此 ,选取 新 浪 微 博 作为 本 研究 数据 源 ,选择 政 


评论 内 容 群 落 。 从 网 民 话题 评论 内 容 以 及 情感 分 析 两 
个 角度 对 评论 数据 进行 分 析 , 通 过 网 民 话题 讨论 内 容 
挖掘 奥 情 事件 整体 演化 过 程 中 的 网 民意 见 , 依 据 网 民 
情感 波动 情况 反映 网 民 对 于 整个 事件 的 态度 ,最 后 采 
用 局 部 视角 ,将 评论 内 容 分 析 和 情感 分 析 结 合 , 进 一 步 
揭示 同一 话题 随 着 事件 演进 的 不 同时 期 网 民 讨论 内 容 
以 及 网 民情 感 的 变化 情况 ,再 结合 评论 内 容 解 释 网 民 
情感 变化 原因 。 研 究 思路 见 图 1。 


4 网 民 评 论 网 络 特性 分 析 


4.1 数据 选取 与 预 处 理 

新 浪 微 博 是 由 新 浪 网 推出 ,提供 微型 博客 服务 类 
的 社交 网 站 , 它 是 一 个 为 大 众 提供 娱乐 休闲 生活 的 信 
息 个 享 和 交流 平台 。 据 央视 财经 统计 ,截止 到 2017 年 
季度 , 微 博 活跃 用 户 1.72 亿 , 月 活跃 用 户 3.92 


府 \、 社 会 .民众 都 比较 关心 的 “中 美 间 贸 易 摩擦 ”为 研 
究 话题 ,获取 2018 年 3 月 23 日 中 美 贸易 战 正式 打响 
F 始 至 2018 年 4 月 30 日 “中 美 间 贸易 摩擦 "事件 下 子 
事件 中 热门 博文 的 网 民 评 论 , 共 3 313 条 ,选取 热点 事 
件 子 事件 .博文 以 及 评论 数 见 表 3。 

分 间 处 理 预 处 理 ( 去 重 、 去 垃圾 评论 ) 


| 


构建 评论 词 网 络 


H 


事件 话题 发 现 分 析 


OE ER QR IRONIA LN Dh UPPER 1 
i D 


事件 情感 分 析 


基于 话题 内 容 的 同 
情感 波动 分 析 


图 1 研究 思路 框架 


表 3 ”中 美 间 贸 易 摩擦 节点 事件 .博文 及 评论 数 


QS 中 美 间 贸 易 摩擦 子 事件 时 间 博文 评论 数 
s 中 美 贸易 战 开 始 标志 3.23 PEUT EAE EDGE ERBA 表示 这 只 是 开始 891 
中 国 对 于 贸易 战 的 反击 4.2 中 美 贸易 摩擦 升级 ! 中 国 为 何 选 在 4 月 工 日 半夜 重 拳 反击 ? 345 

美国 对 中 兴 实 施 一 系列 制裁 行动 4.17 美国 封杀 中 兴 , 一 颗 芯片 都 不 卖 ,直到 2025 年 ! 中 美 科技 战 启 幕 610 

4. 19 中 心 被 制裁 最 新 进展 :已 停止 相关 业务 向 美 申请 解释 578 

4.28 台 当 局 宣布 将 中 兴 列 入 出 口 管制 对 象 889 


一 使 用 正则 表达 式 对 评论 内 容 数据 进行 清洗 ,如 @ 、 
数 富英 文字 母 ,用户 名 .表情 等 ,只 提取 其 中 的 主题 评 
论 山 容 ,再 将 清洗 后 的 评论 数据 进行 分 词 处 理 , 分 词 方 
ASEH JIEBA 分 词 ,逐条 进行 分 词 ,去 掉 停 用 词 .标点 
等 无 意义 的 词 ,用 经 过 清洗 和 分 词 后 的 评论 词 构 建 基 
于 事件 演化 的 评论 词 网 络 ,在 网 络 中 ,使 用 RR 语言 将 情 
感 词典 中 7 类 情感 分 类 与 各 个 情感 词 节点 进行 匹配 ， 
赋予 情感 词 节 点 属性 。 基 于 事件 TI 所 构建 评论 词 网 
络 见 图 2。 

各 个 子 事件 网 络 整体 节点 个 数 . 边 数 与 最 大 联通 
子 图 个 数 . 边 数 如 表 4 所 示 , 由 于 子 图 间 规模 相差 县 
殊 , 本 研究 提取 网 络 中 的 最 大 联通 子 图 进行 相关 分 析 
研究 。 


表 4 评论 网 络 基本 指标 
子 事件 TI T2 T3 T4 T5 
整体 网 络 节点 个 数 2698 1240 2244 2603 2855 
最 大 联通 子 图 节点 个 数 2518 1169 2145 25206 2725 
整体 网 络 节点 连接 边 数 25318 11049 24948 32782 27012 
最 大 联通 子 图 节点 连接 边 数 25 180 10958 24859 32703 26 896 


图 2 T1 子 事件 评论 词 网 络 


4.2. 社 群 规模 分 析 

本 研究 采用 社 群 发 现 算法 中 的 Louvain 算法 ,根据 
评论 网 络 的 拓扑 结构 来 对 话题 社 群 进行 识别 和 分 类 ， 
基于 事件 演化 过 程 动态 探索 领域 话题 群落 的 演变 过 
程 。 由 于 各 子 事件 评论 网 络 拓扑 结构 的 不 同 ,导致 不 
子 事件 中 所 划分 出 的 群落 数目 与 规模 有 所 差异 。T1 
- T5 这 5 个 事件 窗口 下 各 个 评论 网 络 中 知识 群落 的 
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数量 及 规模 如 表 5 所 示 。 其 中 第 一 行 代表 各 事件 窗 
口 ,第 一 列 代 表 了 群落 编号 。 为 了 清晰 地 展示 各 事件 
窗口 中 的 群落 情况 , 表 5 中 每 一 事件 窗口 下 的 话题 群 
落 根 据 规模 由 高 到 低 进行 排序 。 

R5 子 事件 各 个 群落 规模 


Tl T2 T3 T4 T5 
315 186 341 373 389 
196 182 271 234 368 
190 103 258 227 182 
160 95 227 199 178 
153 95 159 157 160 
152 87 124 144 148 
138 57 120 137 138 
132 55 tii 128 128 
131 47 110 121 125 
116 40 96 119 123 
114 39 TI 117 119 
100 34 75 112 100 
94 33 36 82 86 
93 31 33 81 75 
81 30 23 75 67 
71 25 20 64 63 
62 g 13 58 58 
57 7 6 47 52 
54 5 23 45 
49 5 20 38 
43 4 9 38 
10 30 
7 5 


K5 中 对 各 事件 窗口 中 知识 群落 的 数量 以 及 规模 
进行 了 统计 汇总 。 为 了 考察 所 划分 出 的 知识 群落 是 否 
合理 ,分 别 计算 各 个 事件 窗口 下 的 评论 网 络 的 模块 度 ， 


如 表 6 所 示 : 
表 6 基于 事件 的 评论 网 络 模块 度 
子 事件 TI T2 T3 T4 T5 
模块 度 0.553 0. 563 0.522 0. 502 0. 609 


根据 表 6 可 知 ,各 个 事件 窗口 下 的 评论 网 络 的 模 
块 度 值 均 在 0.3 -0.7 之 间 , 说 明 研 究 中 利用 Louvain 
算法 所 划分 的 话题 群落 较为 合理 。 子 事件 评论 网 络 中 
社 群 数量 代表 子 事件 话题 讨论 的 丰富 程度 ,由 表 5 可 
知 , 随 着 热点 事件 的 演化 ,网 民 对 于 各 子 事件 引发 的 话 
题 讨 论 数量 存在 着 不 同 程度 的 差异 ,其 中 ,Tl 事件 


T5 事件 (“ 台 当 局 宣布 将 中 兴 列 入 出 口 管制 对 象 ”) 的 
发 生 引 发 了 网 民 较 大 程度 的 关注 与 讨论 。 
4.3 变异 系数 分 析 

为 了 比较 热点 事件 演变 过 程 中 各 个 子 事件 的 话题 
讨论 集中 程度 ,本 研究 采用 变异 系数 这 一 统计 指标 来 
探索 基于 事件 演化 过 程 中 不 同 规模 的 子 事件 群落 之 间 
的 话题 讨论 集中 程度 。 该 指标 消除 了 不 同 社 群 规模 和 
关联 数量 的 影响 。 


C, =Z XQ) 


公式 (2) 中 ,C, 表示 变异 系数 ,o 代表 话题 群落 规 
模 的 标准 差 ,kh 是 群落 规模 的 平均 数 。C, 描述 了 话题 
群落 标准 差 与 平均 数 之 比 。 变 异 系 数 水 平 越 高 说 明 群 
落 越 离散 ,话题 讨论 越 集 中 。 各 个 子 事件 变异 系数 如 
表 7 所 示 : 

R7 各 个 子 事件 变异 系数 


子 事件 TI T2 T3 T4 TS 


变异 系数 0. 627 0. 946 0.915 0.711 0. 890 


分 析 表 7 中 数据 可 知 , 各 个 子 事件 变异 系数 整体 
上 处 于 波动 状态 ,基于 事件 演化 过 程 中 话题 讨论 的 集 
中 程度 有 所 不 同 ,Tl 事件 的 变异 系数 最 低 , 随 着 事件 
发 展 ,变异 系数 有 所 上 升 ,但 仍 处 于 波动 变化 状态 ,这 
一 现象 从 事件 演化 角度 揭示 了 在 和 与 情事 件 爆发 的 初 
期 ,网 民 话题 讨论 较为 分 散 ,没有 形成 高 度 集 中 的 主 
题 , 随 着 与 情事 件 的 演化 ,关键 节点 事件 逐渐 出 现 ,将 
网 民 讨 论 话题 向 着 统一 的 方向 引流 。 


5 ”中 美 贸易 战 话题 发 现 及 情感 波动 分 析 
5.1 中 美 间 贸易 摩擦 事件 话题 发 现 分 析 


5.1.1 网 民 评论 话题 内 容 分 析 为 了 从 宏观 层面 上 
THE TI -TS 整个 事件 发 展 的 全 过 程 ,笔者 选取 每 个 子 
有 件 下 评论 网 络 中 规模 较 大 的 社 群 ,网 络 社 群 中 高 点 
度 的 节点 可 以 体现 网 民 讨论 的 主要 话题 内 容 。 由 于 篇 
晶 有 限 , 选 取 子 事件 评论 网 络 中 各 个 群落 中 度数 较 高 
词语 节点 ,如 图 3 所 示 , 对 5 个 子 事件 的 话题 内 容 进 
行 分 析 , 可 以 发 现 网 民 对 于 一 些 话题 进行 了 较为 持续 
地 继承 讨论 ,如 贸易 .关税 等 话题 。 随 着 与 情事 件 的 发 
酵 ,会 涌现 出 更 多 新 话题 的 讨论 ,如 T2. 事件 的 农业 A 
济 .电脑 系统 等 ;T3 事件 中 的 芯片 .科技 、 研 发 、 核 武器 
等 话题 ;T4 事件 中 的 科研 人 才 、 科 学 技术 等 话题 ;T5 事 
件 中 的 台独 .联发科 发展 等 话题 。 值 得 注意 的 是 ， 中 
贸易 战 " 话 题 社 群 在 前 4 个 子 事件 中 都 是 排名 第 1 


«lin. 


= oum 


I 


(“ 特 朗 普 签 署 对 华 关 税 备忘录 表示 这 只 是 开始 ” ) 与 


10 


位 或 第 2 位 的 大 型 社 群 ,但 在 TS 事件 ( 台 当 局 宣布 将 
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"- ;入 人 在 划 二 | 
以 新 浪 微 博 “中 le n 1 


中 兴 列 入 出 口 管制 对 象 ) 中 ,网 民 评论 内 容 中 包含 “中 
美 贸易 战 ”的 话题 社 群 只 排 在 第 3 位 ,网 民 的 主要 讨论 
内 容 集中 在 反对 人 台独、 大 陆 与 台湾 发 展 问题 等 话题 ,前 


弱 了 中 美 贸易 战 的 相关 话题 讨论 ,这 个 现象 说 明 在 热 
点 事件 的 演化 中 逐渐 催生 出 了 关于 事件 的 衍生 话题 。 
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Sio 网 民 评论 话题 前 蛤 性 分 析 ”为 了 更 细致 具体 
容 , 笔 者 从 微观 层面 对 网 民 话 
题 过 论 内 容 进行 聚焦 ,通过 分 析 事件 演进 过 程 中 网 民 
的 油 题 社 群 内 容 , 如 图 4 所 示 , 可 知 TI 子 事件 (2018 
23 日 中 美 贸易 战 初始 ) 中 ,网 民 评 论 网 络 中 关 

JED .华为 手机 的 话题 社 群 就 已 经 出 现 且 度 数 中 心 
ENS. RERS 回溯 与 情事 件 的 发 展 脉络 ,3 月 23 
日 知 间 节点 中 ,是 关于 特 朗 普 签署 对 华 关税 备忘录 这 
-AKT 事件 (美国 制裁 中 兴 ) 发 生日 期 为 近 一 个 月 
ifla 月 19 日 , 子 事件 话题 群落 如 图 5 所 示 , 这 一 现 
体现 了 网 民 对 于 此 次 与 情事 件 演化 的 前 脆性 ,对 于 
全 的 思考 预 判 达 到 了 一 定 的 深度 和 层次 ,预测 到 了 
事件 发 展 的 走向 。 在 分 析 过 程 中 ,笔者 发 现 这 一 现象 
并 不 是 特例 ,例如 ,在 T3. 事件 (中 兴 被 制裁 ) 中 ,芯片 
词语 节点 与 华为 词语 节点 高 度 共 现 。 针 对 这 一 现象 ， 
政府 以 及 相关 部 门 应 予以 高 度 重视 ,充分 发 挥 微 博 平 
台 的 民意 收集 作用 ,对 于 网 民 讨论 话题 内 容 可 以 进行 
提取 ,进而 充分 利用 。 
5.2 ”网 民情 感 倾 向 性 分 析 

通过 分 析 评 论 的 倾向 性 可 以 从 宏观 层面 上 把 握 网 
民 在 整个 事件 演化 过 程 中 的 情绪 波动 状况 ,本 研究 对 
评论 内 容 情感 以 乐 .好 ,把 、 哀 \ 惧 . 恶 \ 惊 七 大 类 情感 的 
变化 进行 追踪 ,由 于 评论 网 络 中 的 每 一 个 情感 词 节点 
都 根据 情感 词典 被 分 别 赋予 上 述 七 大 类 属性 ,因此 笔 
者 使 用 有 语言 对 子 事件 TL - T5 评论 网 络 中 情感 词 节点 
进行 统计 分 析 , 可 以 得 到 网 民 对 于 中 美 贸易 间 摩擦 话题 
整体 情感 倾向 性 情况 ,网 民情 感 倾向 性 变化 见 图 6。 


4 


图 3 事件 群落 中 度数 中 心 度 较 高 词语 节点 截图 ( 部分) 


图 4 TI 事件 子 群落 


图 5 T3 事件 子 群落 
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从 宏观 层面 上 分 析 , 在 事件 演化 过 程 中 ,网 民 对 于 
此 次 事件 “ 恶 "“ 翁 ”"“ 衣 ” 的 情绪 是 增加 的 ,“ 好 ”“ 惊 ” 
“ 乐 “ 惧 "的 情感 在 总 体 上 是 削减 的 ,体现 了 网 民 随 着 
事件 的 发 展演 变 消 极 情绪 逐渐 增多 ,积极 情绪 逐渐 减 
少 。 网 民 对 于 中 美 间 贸 易 摩 擦 话题 情感 向 两 种 极端 情 
感 集中 ， 恶 " 和- 好 是 表达 网 民情 感 的 主力 军 ,说 明 网 
民 相 对 客观 地 对 待 此 次 事件 ,认为 此 次 事件 既是 机 遇 也 
Ko 值得 一 提 的 是 ,在 T2 事件 向 T3 事件 发 展 过 程 


惧 "的 情感 显著 增加 ,T3 事件 向 T4 事件 发 展 过 程 
iz 的 情绪 显著 增加 而 “她 "的 情绪 显著 减少 。 回 漳 
整 不 事件 发 展 过 程 ,从 中 美 贸易 战 正式 打响 到 中 国 予以 
íi sx 
CHR A ERR pl e EPHE JR 2b DR SCR EK 

湾 历 史 长 期 遗留 问题 的 政治 背景 下 ,网 民 对 于 台湾 
尖 避 此 次 事件 并 没有 愤 经 ,更 多 地 是 惊奇 和 指责 。 
5.3» 基于 话题 内 容 的 网 民情 感 波动 分 析 
在 熏 情 事件 的 持续 演化 过 程 中 ,网 民 对 于 相同 话 
Us 
民 疯 情感 将 呈现 一 定 程度 的 波动 。 为 了 追踪 网 民情 感 
的 全 和 变化 ,笔者 从 局 部 角度 选取 了 不 同 子 事件 T 
TA 事件 中 相同 讨论 话题 的 社 群 ,如 图 7、 图 8 所 示 : 


7 TI 子 事件 中 美 贸易 话题 社 群 
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8 T4 子 事件 中 美 贸易 话题 社 群 

由 图 7 与 图 8 中 可 以 看 出 两 个 社 群 话题 都 主要 是 
关于 中 美 贸易 相关 问题 的 讨论 , 两 个 子 事件 下 中 美 贸 
易 话 题 网 民情 感 波动 变化 情况 如 图 9 所 示 : 


9096 100496 


Øo 30% 4096 50% 


60% 70% 80% 


sTI m T4 


9 TI, TA 子 事件 中 美 贸 易 话 题 网 民情 感 波动 分 析 


根据 图 9 中 的 情感 变化 对 比 可 以 发 现 ,事件 由 
(中 美 正式 开战 ) 演 化 到 T4( 美 国 制 裁 中 兴 ) 过 程 中 ,网 
民 对 于 此 事件 “有 恶 "“ 惯 "“ 乐 ”“ 怒 ”的 情感 增多 了 ， 
“好 ”“ 衣 ”的 情感 减少 了 ,为 深入 探究 情感 变化 原因 ， 
本 文 结合 群落 话题 内 容 来 理解 网 民 的 情感 变化 。T1、 
T4 事件 中 美 贸易 社 群 中 除 中 国 、 美 国贸 易 战 节点 外 
高 点 度 节 点 如 表 8 所 示 : 

表 8 社 群 高 频 节 点 度数 


TI T3 
节点 度数 节点 度数 
关税 282 中 兴 554 
保护 166 芯片 525 
产业 133 研发 260 

车 130 华为 231 
股市 69 投入 209 


由 表 8 可 知 ,Tl 事件 中 美 贸易 社 群 话题 主要 侧重 
于 关税 产业、 股市 等 方面 ,T4 事件 中 美 贸易 社 群 话题 
主要 关于 中 兴 、 华 为 . 蕊 片 . 研 发 等 ,根据 社 群 讨论 内 容 
以 及 情感 的 波动 变化 ,可 以 总 结 出 网 民 的 观点 和 态度 。 


张海涛 , aik, HO, 
[J]. 图 书 情报 工作 ,2019 ,63(4) :6 - 14. 


等 .基于 模块 度 的 话题 发 现 及 网 民情 感 波动 研究 


ChinaXiv& fEBBTI 
以 新 浪 微 博 “中 x Ri Mg TERRI 


美国 对 于 中 兴 的 制裁 行为 ,加 重 了 网 民 的 对 于 国家 未 
来 科技 发 展 的 坝 慌 以 及 慎 怨 、 习 恶 、 指 责 的 情绪 ,与 此 
同时 ,网 民 “ 乐 ”的 情感 增多 ,“ 记 ”的 情感 减少 了 ,体现 
了 网 民 对 于 民族 产业 、 自 主创 新 研发 的 信心 和 决心 。 


(1) 评 论 网 络 群落 发 现 以 及 变异 系数 可 以 有 效 地 
衡量 网 民 话 题 讨论 的 规模 与 集中 程度 ,网 民 话题 讨论 
集中 程度 受到 子 事件 的 影响 ,与 热点 事件 演化 的 不 同 
阶段 有 关 。 

(2) 和 与 论 衍生 话题 对 事件 网 络 与 情 发 展 有 持续 性 
影响 。 随 着 网 民 讨论 话题 广泛 性 的 升 高 ,逐渐 出 现 了 
生 论 衍生 话题 , 熏 论 衍生 话题 对 于 与 情事 件 的 发 展 方 
i 是 有 很 大 的 影响 。 
OO ) 网 民 对 于 事件 的 演化 具有 一 定 程度 上 的 前 用 
性 习 网 民 对 于 与 情事 件 发 展 的 准确 预 判 并 非 偶发 现 
呈 mu. 
WEBER" ,在 社会 学 领域 中 充分 利用 群体 意见 对 与 情 
问题 的 管理 具有 重要 意义 。 
〇 (4) 评论 网 络 中 赋予 情感 词 节点 情感 分 类 属性 可 
上 当 现 事件 演化 过 程 中 网 民 的 情感 变化 。 网 民 对 于 事 
全 到 博 感 变化 多 数 受 媒体 报道 .时 事 新 闻 炬 道 . 时 事 新 
溥 内容 影 响 ,因此 政府 和 相关 部 门 充分 利用 新 闻 媒体 ， 
把 握 好 网 民情 感 变化 节点 ,有 针对 性 地 进行 引导 管控 ， 
stia pon got 

斧 本 文 基 于 复杂 网 络 分 析 思 想 ,采用 Louvain 算法 来 
识别 划分 子 事件 评论 网 络 中 的 话题 群落 ,基于 情感 记 
节 刚 属性 确定 事件 演化 过 程 中 网 民 的 情感 变化 。 但 研 
究 工 作 也 还 存在 有 待 完善 的 地 方 ,所 选取 的 新 浪 微 博 
数据 源 ,数据 覆盖 面 不 够 广 ,在 后 续 的 研究 中 将 选取 更 
广泛 的 话题 以 及 数据 源 ,对 此 类 问题 做 更 为 深入 的 研 


IT 


究 。 
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Research on Topic Discovery Based on Modularity and Sentiment Fluctuation of Internet Users 
—— Taking Sina Weibo’ s “ China-US Trade Friction" as an Example 
Zhang Haitao'^ Liu Yashu Zhang Xiaohui Song Tong! 
' Management School of Jilin University, Changchun 130022 
* The Information Resource Research Center of Jilin University , Changchun 130022 

sAbstract. [ Purpose/significance | Exploring topical communities and sentiment fluctuations of Internet users and 
gfasping the process of development of events have great significance to control the development direction of the events and 
lead-guidance of the network public opinion in the new period. [ Method/process | Based on the theory of complex net- 
works, the study constructed sub event network based on co-occurrence relations among user comments , identifying topic 
cómihunity in sub-event commenting networks through community discovery algorithms and giving the attribute to emotion 
word. according to the emotional dictionary. The study dynamically tracked the opinions and emotions of Internet users 
básed on the evolution process of events. | Result/conclusion | The conclusion showed that the commenting network com- 
münity discovery and coefficient of variation method can effectively measure the scale and concentration of Internet users 
topit discussion; emotional word sentiment classification attribute method can reflect the emotional changes of Internet us- 
eran the process of event evolution; the derived topic of public opinion has a continuous influence on the development of 
the évent public opinion; the content of the topic discussion of Internet users has some foresight to the evolution of the e- 
verit; 


Keywords. complex network | community discovery topic discovery sentiment analysis 
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